预训练时代下的文档智能，如何迈向多模态?丨微软亚研院团队的思路与实践

Original 徐毅恒数据实战派 2022-01-14

收录于话题

#AI-Drive 21 个

#预训练模型 12 个

#自然语言处理 84 个

文档智能是一种旨在针对富文本文档进行理解并抽取其中非结构化信息的技术。

近年来，以LayoutLM为代表的基于文本、布局和图像的多模态预训练模型，在视觉丰富的文档理解任务中取得了优异的性能，展现了不同模态之间联合学习的巨大潜力。

在此基础上，微软亚洲研究院的研究员们提出了多模态预训练模型LayoutLMv2及其多语言扩展LayoutXLM，通过对文本、布局和图像进行联合预训练，进一步提高了模型的性能，在多项任务中取得了新的突破。

本文将基于下图思路，对于包括LayoutLMv2、LayoutXLM在内的几项相关进展展开介绍（点击文末“阅读原文”可收看视频讲解，“数据实战派”后台回复“直播PPT”可获取本文ppt）。

一、背景：什么是富文本文档理解，以及LayoutLM的诞生

富文本文档在我们的日常生活中非常常见。

例如，上图中的小票、扫描文档以及简历、电子版数据表单，都属于此类。除此之外，microsoft的office套件也是富文本文档，例如word 和ppt。总体而言，富文本文档可以分成两类，一类是扫描文档，一类是电子文档。

那么，富文本文档理解（Visually Rich Document Understanding ，下文简称VrDU）是一个怎样的任务？

它是一种针对富文本文档进行理解并分析，同时将其中的非结构化信息进行抽取和结构化，从而完成一些下游的任务来服务于我们的生活。

下图就是一个典型例子。

给定一个表单，我们可以将其中有用的信息抽取出来，比如表单中的标题和key value（日期、姓名等）。如果能将这些信息自动抽取出来，是可以帮助下游任务的。

针对这一类任务，传统方法是将文档进行ocr识别，然后把抽取出来的文字输入给bert等语言模型进行信息抽取。

这种做法的不足之处在于，文档中除了文字其实还有一部分额外的信息。比如文本的位置。从粗粒度上来看，一个表单和简历、杂志文章是有明显差别的，因为其还涉及布局上的差异，从细粒度上看，文本的字符特征（空间位置、大小区别）也有差异，包括标题字体也会有区别。还有一部分以非字符形式呈现的图表、线条等，同样是非常有用的信息，可以服务于下游的抽取信息。

上图演示了一个文档智能问答的案例。文档智能问答，即给定一个文档图片，针对问题给出回答。对于上图中的问题，基于文本的bert模型最终并没有给出正确答案，基于图像的模型则可以回答出正确答案。这个案例我们就可以看出视觉信息的重要性。

我们推出的LayoutLM，就是一个VrDU的预训练模型。它是针对现有预训练模型的拓展，即在现有的预训练模型基础上添加 2-D Position Embedding 和 Image Embedding 两种新的 Embedding 层，这样一来可以有效地结合文档结构和视觉信息。

下图是LayoutLM 模型结构图。

LayoutLM发布之后，我们发现它存在的局限是，虽然2-D Position Embedding 能够帮助获取layout 布局信息，但是通过faster R-CNN抽取出来的token局部图片信息并没有参加到预训练环节中，这是一个弊端。即图像部分并没能利用到上下文化的能力。所以，我们后续的工作专门针对这一点进行了改进，尝试将image信息引入transformer的输入中，结合transformer的能力进行编码，进一步服务于下游的抽取和分类。

具体而言，我们希望在后续工作中做出一个同时把contextual文本、layout和视觉三种模态信息利用transformer的上下文编码能力的统一框架，而有了这些输入信息、建模三种模态之后仍然不够，这些信息仍需要挖掘彼此的对齐关系。

在LayoutLMv2这项工作中，我们便重点解决上面的问题。

二、LayoutLMv2

下图是LayoutLMv2的结构。

LayoutLM 2.0 的主体结构是带有空间感知自注意力机制的多模态 Transformer 编码器网络。

它主要有两方面优势：其一是在输入阶段同时接受文本、图像、布局三种模态的信息，利用深层网络的强大建模能力实现多模态深度融合；其二是基于文档智能领域特性的空间感知自注意力机制，通过在传统自注意力机制的基础上显式添加空间相对位置信息，进一步帮助模型在一维文本序列基础上加深对二维版面信息的理解。

模型首先将文本、图像、布局三种模态的输入转换成向量表示，然后再交给编码器网络，最终输出的表示向量可以供下游任务使用。

文本向量 (Text Embedding)

文本输入采用常规做法，使用 WordPiece 切分原始输入文本，之后添加 [CLS] 和 [SEP] 标记，并用 [PAD] 补齐长度得到文本输入序列：

再将词向量、一维位置向量、分段向量（代表 [A] 或 [B]）相加得到文本向量，算法公式如下：

图像向量 (Image Embedding)

LayoutLM 1.0 采用了整体和局部两种图像表示方法。使用图像整体表示可以帮助模型捕捉页面整体样式信息，但是模型难以高效建模细节特征。而使用图像中的局部文本区域则会顾及更多细节特征，但文本区域众多，且非文本区域也可能含有重要的视觉信息。因此2.0结合二者特点，可以将图像网格状均分，表示为定长向量序列。

使用 ResNeXt-FPN 网络作为图像编码器，要先抽取原始文档图像的特征图，再将其平均池化为固定尺寸（W×H），接着按行展开平均池化后的特征图，之后经过线性投影，就可以得到图像对应的特征序列。和文本向量的组成对应，图像向量也补充了一维相对位置和分段信息。有别于文本的 [A]、[B] 段，图像统一归入 [C] 段。用特征向量、一维位置向量、分段向量相加得到最终的图像向量：

布局向量 (Layout Embedding)

对应于每个词或图像区域在页面中覆盖的坐标范围，使用平行于坐标轴的边界框（bounding box）表示布局信息。LayoutLM 2.0 沿用了1.0的处理方式，用4个边界坐标值、宽、高来表示一个边界框。最终的布局向量由6个特征对应的向量拼接得到：

基于空间感知自注意力机制的多模态编码器

为了融合三种输入模态，编码器部分首先将图像向量序列和文本向量序列拼接成统一的输入序列，并且在对应位置加上布局向量。编码器首层输入可以表示为：

编码器部分改进了传统的自注意力机制，引入了空间相对位置信息。传统自注意力机制通过如下方式计算注意力得分：

可以看出，这种方式只能隐式地利用输入的绝对位置信息。于是为注意力得分显式地添加空间相对位置偏差项：

基于这种空间感知的自注意力权重，编码器可以将模型隐藏层表示为：

LayoutLM 2.0 的预训练阶段采用了3个自监督预训练任务帮助模型提升语言能力、对齐模态信息。

遮罩式视觉语言模型（Masked Visual-Language Model）

作为对 LayoutLM 1.0 的扩展，2.0使用的遮罩式视觉语言模型任务要求模型根据图文和布局信息中的上下文还原文本中被遮盖的词，遮盖操作同时遮盖文本中的词和图像中的对应区域，但保留空间位置信息。

文本—图像对齐（Text-Image Alignment）

遮罩式视觉语言模型更关注模型的语言能力，视觉和布局信息只提供隐式线索，为此一种细粒度的多模态对齐任务在 LayoutLM 2.0 中被提出，即文本—图像对齐。该方法在文档图像上随机按行遮盖一部分文本，利用模型的文本部分输出进行词级别二分类，预测每个词是否被覆盖。文本—图像对齐任务帮助模型对齐文本和图像的位置信息。

文本—图像匹配（Text-Image Match）

现有工作证明，粗粒度的文本—图像匹配任务有助于帮助模态信息对齐。对于预训练阶段的文档数据，随机地替换或舍弃一部分文档图像，会构造图文失配的负样本。LayoutLM 2.0 的模型以文档级二分类的方式预测图文是否匹配，以此来对齐文本和图像的内容信息。

三、最新进展：LayoutXLM

拿下 LayoutLMv2 接力棒的成果LayoutXLM，采取了与 LayoutLMv2 类似的框架，团队用一个多模态的 Transformer 架构设计了 LayoutXLM 模型。

该模型接受了来自三种不同模态的信息，包括文本、布局和图像，它们分别被编码为文本嵌入层(text embedding)、布局嵌入层(layout embedding)和视觉嵌入层(visual embedding)。文本和图像嵌入被连接起来后，再加上布局嵌入，从而得到模型输入。

下图为LayoutXLM 模型架构：

具有空间感知的自注意力机制（spatial-aware self-attention mechanism）的多模态 Transformer，可以对模型输入进行编码并将多个模态的信息进行融合。最后，输出的上下文表示向量可用于特定任务层，以完成下游任务。

预训练方法：跨模态对齐

LayoutLMv2 的预训练目标在对视觉丰富的文档进行建模时已显示出其有效性。因此，研究员们很自然地将这个预训练框架调整为多语言文档预训练。按照跨模态对齐这一核心思路，LayoutXLM 文档理解预训练框架包含三个预训练目标——多语言掩码式视觉语言模型（文本-布局对齐）、文本-图像对齐（细粒度的文本-图像对齐）和文本-图像匹配（粗粒度的文本-图像对齐）。

多语言掩码式视觉语言模型（Multilingual Masked Visual-Language Model）：掩码式视觉语言模型（MVLM）最初是在 LayoutLM 中提出的，在 LayoutLMv2 中也有使用，其目的是对视觉丰富的文档中的丰富文本进行建模。在这个预训练目标中，模型需要根据其文本上下文和所有的布局暗示来预测被遮盖的文本。与 LayoutLM/LayoutLMv2 类似，使用多语言掩码式视觉语言模型（MMVLM）来训练了 LayoutXLM。

文本—图像对齐（Text-Image Alignment）：文本-图像对齐（TIA）任务是为了帮助模型捕捉文本和图像之间的细粒度对齐关系。我们随机选择了一些文本行，然后在文档图像上覆盖其对应的图像区域，模型需要对每个文本预测其是否被覆盖。

文本—图像匹配（Text-Image Match）：对于文本-图像匹配（TIM）任务，设计目标是使文本和图像之间的高层语义表示保持一致。为此，需要要求模型预测文本和图像是否来自同一个文档页面。

LayoutXLM 模型用53种语言的文档进行了预训练，下图展示了预训练数据中不同语言的分布。

我们选择了多语言的 PDF 文件作为训练数据来源。因为，PDF 文件可以大大方便收集和预处理的步骤：不同于扫描文档图片，PDF 文件可以免去在自然图像中筛选扫描文件的麻烦；另一方面，也可以用 PDF 解析器直接提取准确的文本和相应的布局信息，从而节省运行 OCR 工具的时间。

获取原始多语言 PDF 数据之后，使用开源的 PDF 解析器 PyMuPDF 提取了文本、布局和文档图像，并通过文档长度、BlingFire 语言得分等方式筛选掉低质量的训练数据。最终构建了约三千万的多语言富文本文档训练数据。

为了证明 LayoutXLM 的性能，我们在 XFUN 基准上进行了实验。该数据集包含语义实体识别和关系抽取两个自任务，涵盖7种语言：中文、日文、西班牙文、法文、意大利文、德文、葡萄牙文。目前 XFUN 数据集已经开放下载，下载地址：https://aka.ms/layoutxlm。

除了典型的特定语言微调（Language-specific fine-tuning）实验外，还增加了两个额外的实验设置，零样本迁移学习(Zero-shot transfer learning)和多任务微调(Multitask fine-tuning)，来证明在不同语言之间迁移知识的能力。

1. 特定语言微调（Language-specific Fine-tuning）是指典型的微调范式，即在语言X上进行微调，在语言X上进行测试。

2. 零样本迁移学习（Zero-shot Transfer Learning）意味着模型只在英语数据上训练，然后在每个目标语言上进行测试。

3. 多任务微调（Multitask Fine-tuning）要求模型在所有语言的数据上进行训练，然后在每个目标语言上进行测试。

在这三种实验设置下，我们将语义实体识别和关系抽取这两个子任务分别进行了评估，并将 LayoutXLM 模型与已有的跨语言模型 XLM-R 和 InfoXLM 进行了比较。

我们在特定语言的微调任务中评估了 LayoutXLM 模型，结果见下表。与 XLM-R 和 InfoXLM 等预训练模型相比，LayoutXLM LARGE 模型在 SER 和 RE 任务中都获得了最高的 F1 分数。这表明 LayoutXLM 有能力将从预训练中获得的知识转移到下游任务中，这进一步证实了框架的有效性。

在XFUN上进行特定语言微调的实验结果，其中SER代表语义实体识别，RE代表关系抽取。

对于跨语言的零样本迁移学习，下表中给出了评估结果。虽然该模型只在 FUNSD 数据集（英语）上进行了微调，但它仍然可以将知识转移到不同的语言中。此外，我们观察到 LayoutXLM 模型明显优于其他基于文本的模型。这验证了 LayoutXLM 能够捕捉到不同语言间文本布局共享的局部不变性，并将其转移到其他语言中进行表单理解。

在 XFUN 上进行零样本迁移学习的实验结果

表4展示了多任务微调的评估结果。在这种实验设置下，预训练的 LayoutXLM 模型同时在8种语言数据上进行了微调，并在每种语言上进行了评估，通过这种方式可以得知模型是否可以通过多语言同时微调获得性能提升。据观察，与特定语言的微调相比，多任务学习进一步提高了模型的性能，这也证实了文档理解可以从不同语言文本布局的局部不变性中受益。

虽然 LayoutXLM 在实验中取得了非常优异的成绩，我们并未止步于此，接下来将进一步扩大多语言训练数据，以涵盖更多的语言以及更多的文档布局和模板。此外，由于存在大量内容相同但语言不同的商业文档，我们还将研究如何通过在平行文档上进行对比学习来提升多语言预训练模型的准确性。

在 XFUN 上进行多任务微调的实验结果

四、文档智能领域综述：数据集、模型及应用

最后，分享我们团队受邀在CCL 2021撰写、关于文档智能前沿技术的综述文章《文档智能：数据集、模型和应用》（中文综述文章的链接见下文，在此不多做赘述）。

这篇综述文章对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法、以及近年来基于深度学习和预训练的方法进行简要介绍，并展望了文档智能技术的未来发展方向。

微软亚洲研究院团队在这个方向上的主要工作如下图所示：

本文讨论的论文链接如下：

LayoutLM (KDD 2020):
https://dl.acm.org/doi/10.1145/3394486.3403172
LayoutLMv2 (ACL 2021):
https://aclanthology.org/2021.acl-long.201/
LayoutXLM (Preprint 2021) :
https://arxiv.org/abs/2104.08836
《文档智能：数据集、模型和应用》：
https://www.microsoft.com/en-us/research/publication/document-ai-benchmarks-models-and-applications-in-chinese/

开源代码：